Source | # of sentences | Average logarithmic rank |
---|---|---|
http://uk.wikipedia.org/wiki/Гірський_Степан_Богданович | 12 | 5.91 |
http://uk.wikipedia.org/wiki/Хатем_Бен_Арфа | 12 | 5.91 |
http://uk.wikipedia.org/wiki/Брати_і_сестри_(телесеріал,_2006) | 11 | 6.04 |
http://uk.wikipedia.org/wiki/Нижня_Велесниця | 11 | 6.08 |
http://uk.wikipedia.org/wiki/Нії_Лемпті | 18 | 6.22 |
http://uk.wikipedia.org/wiki/Йоган_Боскамп | 13 | 6.25 |
http://uk.wikipedia.org/wiki/Український_молодіжний_клуб_Москви | 12 | 6.26 |
http://uk.wikipedia.org/wiki/Нью-Йорк | 18 | 6.28 |
http://uk.wikipedia.org/wiki/Зріст_людини | 12 | 6.31 |
http://uk.wikipedia.org/wiki/Канікули | 12 | 6.31 |
http://uk.wikipedia.org/wiki/Біженці_громадянської_війни_в_Греції | 15 | 6.33 |
http://uk.wikipedia.org/wiki/Геннес_Вайсвайлер | 15 | 6.34 |
http://uk.wikipedia.org/wiki/Ефраїн_Санчес | 12 | 6.35 |
http://uk.wikipedia.org/wiki/Джекі_Куган | 30 | 6.36 |
http://uk.wikipedia.org/wiki/Імперія_Онлайн | 11 | 6.37 |
http://uk.wikipedia.org/wiki/Історична_демографія_України | 33 | 6.37 |
http://uk.wikipedia.org/wiki/Атмосфера_Венери | 11 | 6.37 |
http://uk.wikipedia.org/wiki/Географічне_поширення_російської_мови_у_світі | 12 | 6.37 |
http://uk.wikipedia.org/wiki/Патрік_Дебуа | 11 | 6.37 |
http://uk.wikipedia.org/wiki/Дейв_Мастейн | 14 | 6.38 |
http://uk.wikipedia.org/wiki/Жінки_в_інженерії | 11 | 6.38 |
http://uk.wikipedia.org/wiki/Параконьєв_Костянтин_Йосипович | 11 | 6.38 |
http://uk.wikipedia.org/wiki/Депортація_угорців_до_СРСР_у_1956_році | 11 | 6.39 |
http://uk.wikipedia.org/wiki/Сергеєв_Микола_Олександрович_(атлет) | 11 | 6.39 |
http://uk.wikipedia.org/wiki/Who_Wants_to_Be_a_Millionaire? | 12 | 6.40 |
http://uk.wikipedia.org/wiki/Друзі_(список_другорядних_персонажів) | 19 | 6.40 |
http://uk.wikipedia.org/wiki/Рей_Фаркхарсон | 12 | 6.40 |
http://uk.wikipedia.org/wiki/Х'юстон | 25 | 6.40 |
http://uk.wikipedia.org/wiki/Висоцький_Володимир_Семенович | 12 | 6.41 |
http://uk.wikipedia.org/wiki/Концерт_U2_у_Сараєві | 11 | 6.41 |
Source | # of sentences | Average logarithmic rank |
---|---|---|
http://uk.wikipedia.org/wiki/Нормативно-правовий_акт | 28 | 9.24 |
http://uk.wikipedia.org/wiki/IBM_WebSphere_Application_Server | 14 | 8.77 |
http://uk.wikipedia.org/wiki/Справжня_поліцитемія | 11 | 8.76 |
http://uk.wikipedia.org/wiki/Чеська_література | 20 | 8.70 |
http://uk.wikipedia.org/wiki/Фоа-Хока | 11 | 8.69 |
http://uk.wikipedia.org/wiki/Портрети_Бенвенуто_Челліні | 12 | 8.63 |
http://uk.wikipedia.org/wiki/Фізико-географічне_районування_України | 22 | 8.60 |
http://uk.wikipedia.org/wiki/Ферро-ЗНТУ | 12 | 8.59 |
http://uk.wikipedia.org/wiki/Коростовецький_заказник | 15 | 8.56 |
http://uk.wikipedia.org/wiki/Структура_гірських_порід | 13 | 8.56 |
http://uk.wikipedia.org/wiki/Корисні_копалини_Японії | 12 | 8.55 |
http://uk.wikipedia.org/wiki/Лямбліоз | 15 | 8.54 |
http://uk.wikipedia.org/wiki/Спів_про_Саву_Чалого | 19 | 8.54 |
http://uk.wikipedia.org/wiki/Неспецифічний_виразковий_коліт | 12 | 8.53 |
http://uk.wikipedia.org/wiki/Піодермія | 40 | 8.53 |
http://uk.wikipedia.org/wiki/Сосна_гірська | 16 | 8.53 |
http://uk.wikipedia.org/wiki/Перелік_наукових_фахових_видань_з_фізико-математичних_наук | 15 | 8.51 |
http://uk.wikipedia.org/wiki/Лісові_Сорочинці | 12 | 8.50 |
http://uk.wikipedia.org/wiki/Метаболічні_кінази | 17 | 8.50 |
http://uk.wikipedia.org/wiki/Ендокардит | 18 | 8.46 |
http://uk.wikipedia.org/wiki/Флотація_мідних_сульфідних_руд | 11 | 8.46 |
http://uk.wikipedia.org/wiki/Сопронюк_Олександр_Петрович | 11 | 8.44 |
http://uk.wikipedia.org/wiki/Шкідники_і_хвороби_орхідних_закритого_ґрунту | 13 | 8.44 |
http://uk.wikipedia.org/wiki/Автопортрети_Тараса_Шевченка | 11 | 8.43 |
http://uk.wikipedia.org/wiki/Кульбаба_лікарська | 13 | 8.43 |
http://uk.wikipedia.org/wiki/Нородом_Ранаріт | 12 | 8.43 |
http://uk.wikipedia.org/wiki/Геморой | 13 | 8.42 |
http://uk.wikipedia.org/wiki/Кептар | 16 | 8.42 |
http://uk.wikipedia.org/wiki/Причорноморський_економічний_район | 15 | 8.42 |
http://uk.wikipedia.org/wiki/Флотація_мідно-цинкових_руд | 14 | 8.42 |
In this subsection we replace average word length by average logarithmic word rank. The logarithm of the word rank is taken because we want to punish words of high ranks only moderately.
First table:
select source, count(distinct i_s.s_id) as cnt_s, round(avg(log(w.w_id-100)),2) as av from sources so, inv_so i_s, inv_w i, words w where so.so_id=i_s.so_id and i_s.s_id=i.s_id and i.w_id=w.w_id and w.w_id>100 group by source having cnt_s>10 order by av LIMIT 30;
6.4.2.1 Average word length for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words